Q1:如何进行划分属性选择?

现实应用中,经常会遇到属性值缺失的现象,如果仅仅使用无缺失的样例值,就会损失掉那些有缺失值的数据里面蕴含的信息,造成对数据的极大浪费

要使用带缺失值的样例,需要解决如下问题

  • 先只拿在该属性上有值的
    • 然后增益率该咋算咋算
      • 最后在乘上一个有缺失值的样本数量除以全部样本数量的系数即可。
        • 最后把增益率最大的属性作为划分属性

Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分?

样本赋权,权重划分,同时进入 Pasted image 20240611205449.png

本质上是把样本进入各个分支的后验概率作为缺失值样本应该进入那个分支的先验概率。